查看原文
其他

一个统计方向毕业生的2017年数据科学从业之路总结

louwill 机器学习实验室 2019-04-07

    


    农历2017年的最后一天,终于能抽出点时间给过去一年以来关注我个人公众号的几千粉丝写点什么了。翻了一下上次的推送时间是1月16号,快一个月没更新了。一个是懒,一个是有点忙,当然主要是懒。这里要向关注我公号的各位致歉,记得很久之前就有朋友给我留言说要勤更,大家都默默关注我的学习和进阶历程,当时就很感动,也想着下决心把这个关于数据科学和机器学习公众号给做充实一点。

 

    可是事与愿违,之后公众号的更新不但没有更勤,反而更的更少了。过去的几个月乃至一整年对我而言是极具意义的一段时光。我从一名统计方向的硕士生成为了数据科学行业的一名普通的从业者,有机会继续在实际工作中学习和使用数据科学的方法和工具,领会到了数据科学和人工智能在业界的应用乐趣。但与此同时,我个人糟糕的时间管理和学习安排在一定程度上阻碍了我给大家分享数据相关的技术和工具,所以2018年第一件要解决的事情就是时间管理,具体而言就是如何给大家持续的、勤勉的通过公众号分享数据科学和机器学习的各种知识。公众号于2017年3月创建,至今累计发文66篇,以R语言和Python这两种数据科学编程语言为主,涉及数据分析、数据挖掘、数学建模、机器学习算法、网络数据采集以及数据分析案例等方面的内容,内容虽然不经雕琢、粗制滥造,但也是我在数据分析路上实实在在的经验之谈,也希望2018年公众号的分享能在内容质量上有所提升和改进。

 

我的微信公众号


    2017年值得回味和感谢的事情太多。除了创建了这个公众号让我得以认识众多国内数据科学爱好者、从业者和高校学生之外,还有几件值得回顾的事情。

 

    6月初的时候应国内数据行业的布道者、数据大咖邓凯哥的邀请加入了数据圈,后来在圈内一直担任R语言学习小组的组长至今。组织集中学习以来,已经带了4期数据圈学员进行R语言的集中学习,圈子的学习热情和生态打造的很好,很感谢邓哥和众多圈友的关照。

 

    7月份的时候有幸参加了北大王汉生老师开办的狗熊会数据科学人才计划第一期训练营,为期一月的task训练让我得以接触和学习王汉生老师和狗熊会团队朴素的数据科学和回归分析的方法论,“凡是可以记录的都是数据”、“老王做煎饼果子,以前一月能卖1万,用了数据分析之后一月能卖两万,你看这数据分析值1万”、“回归分析是数据分析最重要的基本思想,在老王看来没有回归分析搞不定的数据分析问题”,“因变量y是业务的核心诉求,是科学研究的关键问题,数据分析关键就是要找到这个y”……这些朴素而又实用的数据分析思想,让我倍感受用,参加工作之后,虽然每天从事的都是数据技术性质的工作内容,但仍然感觉这些思想今后会受用终身。另外,狗熊会人才计划让我有幸能认识来自全国各大高校的统计学、数学和计算机等专业的学生,他们都很优秀,也都是数据科学的爱好者,也祝愿他们在今后的日子里能像狗熊会所宣传的宗旨一样,能够助力国家数据产业振兴。参加工作之后,狗熊会几位老师之前交待的一些任务没能继续进行下去,在此表示歉意和遗憾。

 

狗熊会人才计划毕业证


    另外在8月份的时候有幸得到参加由广东省学位委员会和广东财经大学举办的数学建模与统计学暑期班的机会。有幸能与来自全国几十所高校100多名相关专业的研究生一起交流大数据、数学建模和统计学等方面的知识和经验,也见识到领域内国内各高校的老师们的前沿研究工作,增长了很多见识,也感受到了华南地区数据科学发展的强劲实力。这其中广东财经大学对我们全部研究生提供吃住学行全免的待遇,真的是非常感谢,也祝广财大未来发展越来越好。

 

广东财经大学暑期学校


参观科大讯飞华南分公司


    还有一件必须提及的事情是华东师范大学统计学系的汤银才老师邀请我加入了上海数萃大数据团队。汤老师给了我很多平时触及不到的学习资源,包括免费的数据培训和资源分享,也认识了团队里一些优秀的数据科学人才,他们都是我学习的榜样和目标。说来惭愧,加入团队以来并没有帮助团队做多少实质性的工作,这也是今年我需要弥补和注意的事情。汤老师是国内贝叶斯统计学的学科带头人之一,也是最早在国内进行R语言普及教育的学者,我很尊敬和感谢他,也希望今年跟着数萃能做一些有益的工作。

 

参加第10届中国R语言会议上海场


    之后就是9月份参加了中国研究生数学建模竞赛,侥幸获得了二等奖,在此对中国计量大学理学院的蒋伟峰老师表示感谢,没有蒋老师的指导,可能侥幸都不能获奖,另外蒋老师也是我加入狗熊会人才计划的介绍人,因缘际会之下获得的都是机遇。

 

中国研究生数学建模竞赛


    前面谈的都是对2017年我个人的一些经历的回顾,下面谈谈这一年来个人在数据科学方面的学习经验以及给后来者的一些建议。2016年下半年的时候查看招聘网站,面对日新月异而又滚滚而来的新技术和新领域,我决心要变得更加自我驱动一点。2016年下半年和2017年上半年,我含辛茹苦的恶补了R语言,下半年参加工作前后又将重心调整到Python上面。将微积分、线性代数以及最重要的概率统计又重新学习了一遍,苦心钻研了基本的数据挖掘和机器学习算法,对深度学习和人工智能技术表示了极大的关注。每天最重要的事情就是自学,恶补了虽然微不足道但受益匪浅的计算机知识。如今暂且由一名在校生转变成了数据行业的从业者,但更加认识到自身的不足和未来形势的千变万化的紧迫性。做单纯的数据分析,我SQL写的不熟络,Excel玩的也不溜,唯一熟练的R语言在日常工作还让位了Python,学习编程没有先天优势,但好在不算晚。做机器学习算法,目前的能力只能说是实现能力还不够,不懂java和C语言,linux也才刚刚入门,说了好久数据结构与算法也来不及学。所以2018年,在个人学习上我想着三件主要的事,第一就是夯实和钻研机器学习算法,这一块有平时的工作和kaggle、天池算法大赛进行驱动,是必须实现的任务。第二个核心任务就是精通Python,这也是有日常工作为导向,将Python作为全栈式的编程语言来学习和应用,而不是仅仅作为数据分析语言。第三个就是恶补计算机方面的技术,包括linux、数据结构、web前端以及等等其他方面的内容,这方面不给自己定明确的目标,以实际工作和个人自主学习为导向进行学习。另外,感谢电子工业出版社的王编辑主动联系我写一本关于R语言的书的事宜,争取在今年上半年出来书稿以飭读者。

 

    我目前的工作单位是创业软件浙江智慧医疗研究院人工智能产品部,这里有着我需要的成长环境和工作氛围,领导和同事们也都是技术大牛,在团队里每个人都是我学习的榜样,2018年希望自身能够跟着研究院团队共同成长。


    对于后来者和学弟学妹们的学习建议有四条:数学和统计学基本功要扎实,有人说数学不重要?微积分没必要学?看看深度学习的链式求导法则吧。编程思维训练就现在开始,种一棵树最好的时间是10年前,其次是现在。Python和R建议都学,R对统计分析和可视化作图的支持简直无法言说,但是生产环境下用Python的企业居多,建议全都认真学。机器学习和数据挖掘算法原理要认真啃,建议从李航的《统计学习方法》和周志华的西瓜书开始,最好自己手动推导一遍。不要看现在到处都在人工智能,很多人概念喊了半天连基本的决策树和线性回归都整不明白。“刘备建国,基础不牢。夷陵兵败,地动山摇”。基础的重要性我想你应该懂。最后一点就是学了要会用,kaggle、天池、科赛,一大堆数据科学竞赛和实践等着你,参加一两个之后就轻车熟路了。


    2018年对于我将是至关重要的一年,无论是生活上、学习上还是工作上。新年将至,我感谢在过去一年中对我提供帮助的各位老师、同学、朋友和同事,还有这个公众号下数千素未谋面的数据科学爱好者,祝你们新年快乐,工作顺利!







一个数据科学从业者的学习历程

长按二维码.关注数据科学家养成记






    您可能也对以下帖子感兴趣

    文章有问题?点此查看未经处理的缓存